对于普通人来说,了解唇部运动并从中推断出讲话是很困难的。准确的唇部阅读的任务从说话者的各种线索及其上下文或环境环境中获得帮助。每个演讲者都有不同的口音和说话风格,可以从他们的视觉和语音功能中推断出来。这项工作旨在了解语音和单个说话者在不受约束和大型词汇中的嘴唇运动顺序之间的相关性/映射。我们将帧序列建模为在自动编码器设置中的变压器之前,并学会了利用音频和视频的时间属性的关节嵌入。我们使用深度度量学习学习时间同步,这指导解码器与输入唇部运动同步生成语音。因此,预测性后部为我们提供了以说话者的说话风格产生的演讲。我们已经在网格和LIP2WAV化学讲座数据集上训练了模型,以评估在不受限制的自然环境中唇部运动的单个扬声器自然语音生成任务。使用人类评估的各种定性和定量指标进行了广泛的评估还表明,我们的方法在几乎所有评估指标上都优于lip2wav化学数据集(在不受约束的环境中的大词汇)(在不受约束的环境中的大词汇),并且在边缘上胜过了较大的范围。网格数据集。
translated by 谷歌翻译